48 research outputs found

    OpinHuBank

    Get PDF

    Information extraction from Wikipedia using pattern learning

    Get PDF
    In this paper we present solutions for the crucial task of extracting structured information from massive free-text resources, such as Wikipedia, for the sake of semantic databases serving upcoming Semantic Web technologies. We demonstrate both a verb frame-based approach using deep natural language processing techniques with extraction patterns developed by human knowledge experts and machine learning methods using shallow linguistic processing. We also propose a method for learning verb frame-based extraction patterns automatically from labeled data. We show that labeled training data can be produced with only minimal human effort by utilizing existing semantic resources and the special characteristics of Wikipedia. Custom solutions for named entity recognition are also possible in this scenario. We present evaluation and comparison of the different approaches for several different relations

    Magyar EuroWordNet projekt : bemutatás és helyzetjelentés

    Get PDF
    A tanulmányban bemutatjuk azt a projektet, melynek célja a magyar nyelv, a EuroWordNet többnyelv architektúrájába illeszkedő nyelvi ontológia létrehozása. Az ontológia általános része a EuroWordNet-et továbbfejlesztő BalkaNet projekt erőforrásaira épít. Az ontológia kiinduló fogalmi készlete fő- neveknél és mellékneveknél a BalkaNet Base Concept Set angol nyelv, Princeton WordNet-ből származó synsetjeinek lefordításával készült, igéknél ezekkel párhuzamosan—a két nyelv igei rendszerének szemantikai különbségei miatt—saját erőforrásokból kiindulva történt. A synsetek lefordítása gépi heurisztikák alkalmazásával, valamint ezek eredményeinek kézi ellenőrzésével történt. A cikkben bemutatjuk az eddigi eredményeket, illetve az ontológia továbbfejlesztésének a projekt során tervezett következő lépéseit

    Magyár főnévi WordNet-ontológia létrehozása automatikus módszerekkel

    Get PDF
    A cikk bemutatja a folyamatban lévő, magyar főnévi WordNet adatbázis létrehozását célul kitűző munkálatok módszereit és legfrissebb eredményeit. Bemutatjuk azt a 9 különböző számítógépes módszert, melyek célja magyar főnevek automatizált hozzárendelése az angol nyelvű, 1.6-os verziójú WordNet synsetjeihez. A felhasznált magyar főnevek egy elektronikus magyarangol kétnyelvű szótár szóanyagából származnak. A heurisztikus hozzárendelések támogatásához a kétnyelvű mellett az egynyelvű magyar Értelmező Kéziszótár számítógéppel feldolgozható anyagából nyertünk ki strukturális és szemantikai információkat. A különböző folyamatok eredményeinek pontosságát egy kézzel egyértelműsitett etalon halmaz segítségével becsültük meg, majd a főnévi adatbázist a validált eredményhalmazok különböző szintű pontosságot meghaladó kombinációival állítottuk elő

    Angol-magyar gépi fordítórendszer támogatása jelentés-egyértelműsítő modullal

    Get PDF
    A számítógépes jelentés-egyértelműsítés során egy adott nyelven többértelmű lexikai elemekről kell eldönteni, hogy adott előfordulásuk kontextusában az ismert jelentéseik közül melyekkel szerepelnek. Ennek a feladatnak speciális esete, amikor a megkülönböztetendő jelentéseket nem egy egynyelvű szótár meghatározásai, hanem egy másik nyelven lehetséges különböző fordításaik alapján határozzuk meg. A cikkben bemutatott, Naiv Bayes osztályozó algoritmussal működő supervised egyértelműsítő rendszer egy angol-magyar fordítóprogram támogatásához készült. A jelenleg prototípus implementációban működő, 38 különböző többértelmű angol főnevet kezelő rendszer 84%-os átlagos pontossággal egyértelműsít

    OpinHu : online szövegek többnyelvű véleményelemzése

    Get PDF
    Az OpinHu rendszer célja internetes hírportálokon, blogokon, közösségi oldalakon megjelent szövegek tartalomelemzése. A begyjtött szövegek automatikus véleményelemzését, témaosztályozását, névelem-felismerését és az ehhez kapcsolódó statisztikákat több nyelven (ezek jelenleg: angol, magyar, német, arab, kínai) is képes elvégezni. A cikkben részletesen bemutatjuk a véleményelemzés általunk alkalmazott modelljét, valamint a felhasznált, mély nyelvi elemzésre támaszkodó, szabályalapú algoritmust. Ismertetjük a rendszer teljesítményének kiértékelésével kapcsolatos kísérleteinket is, melyeket humán annotátorokkal létrehozott szabványos adathalmazokon végeztünk el (SemEval2007, JRC korpusz)
    corecore